Google appuie très fort sur le champignon pour son IA

Dans un contexte concurrentiel, Google ne traîne plus et accélère la cadence avec son modèle d'IA générative et multimodale Gemini lancé en décembre.

La semaine dernière, le chatbot Bard est devenu Gemini (modèle Gemini Pro) et Gemini 1.0 Ultra a fait ses grands débuts sous l'égide d'un abonnement Gemini Advanced. Aujourd'hui, Google inaugure Gemini 1.5 et dévoile Gemini 1.5 Pro.

" Gemini 1.5 montre des améliorations spectaculaires dans un certain nombre de dimensions et Gemini 1.5 Pro atteint une qualité comparable à Gemini Ultra 1.0, tout en utilisation moins de calcul ", résume Sundar Pichai, le patron de Google et d'Alphabet.

Une nouvelle architecture MoE

Gemini 1.5 s'appuie sur une nouvelle architecture technologique Mixture-of-Experts (MoE). Elle permet de rationaliser les capacités de traitement en fonction du type de données fournies. Patron de Google DeepMind, Demis Hassabis explique que " les modèles MoE apprennent à activer sélectivement uniquement les voies expertes les plus pertinentes dans leur réseau neuronal. "

Grâce à cette spécialisation, Gemini 1.5 apprend des tâches complexes en moins de temps. Elle le rend plus efficace à entraîner et à déployer. " Nos équipes entraînent et fournissent des versions plus avancées de Gemini plus rapidement que jamais, et nous travaillons sur de nouvelles optimisations. "

Évalué sur un panel complet avec du texte, du code, des images, de l'audio et de la vidéo, Gemini 1.5 Pro surpasse Gemini 1.0 Pro dans 87 % des critères de référence utilisés par Google pour développer ses grands modèles de langage. Sur ces mêmes critères de référence, les performances sont similaires à celles de Gemini 1.0 Ultra.

Une énorme fenêtre de contexte

Un aspect impressionnant est la fenêtre contextuelle de Gemini 1.5 pour le traitement d'informations en une seule fois. C'est une fenêtre de jusqu'à 1 million de tokens, contre 32 000 pour Gemini Pro (environ 20 000 mots par requête) et 128 000 pour GPT-4 Turbo d'OpenAI.

Pour Gemini 1.5 Pro et pour un raisonnement complexe sur de grandes quantités d'informations, Google fait une comparaison avec jusqu'à 1 heure de vidéo, 11 heures d'audio, plus de 30 000 lignes de code, ou encore plus de 700 000 mots. Les chercheurs de Google ont en outre testé une fenêtre contextuelle de 10 millions de tokens.

Avec une fenêtre contextuelle d'un million de tokens, une version expérimentale de Gemini 1.5 Pro est mise à disposition des développeurs et des entreprises par le biais de l'API Gemini dans Google AI Studio et sur Vertex AI.

Pour une disponibilité à grande échelle du modèle, Google prévoit une fenêtre contextuelle qui commencera à 128 000 tokens. Plusieurs formules d'abonnement seront proposées pour aller jusqu'à 1 million de tokens.

Source
Catégorie article Technologies